Corpus for Benchmarking Clinical Speech De-identification
Dit paper introduceert de SREDH-AICup-corpus, een tijdsgealigneerde dataset van 20 uur met klinische spraak in het Engels en Mandarijn, die is geannoteerd met 38 categorieën van gevoelige gezondheidsinformatie om de ontwikkeling en benchmarking van systemen voor de-identificatie van medische spraak te ondersteunen.